DATR - это метаязык для описания грамматических явлений естественных языков, реализующий функции языкового процессора. Это означает, что на основе указанных функций, исследователь, использующий DATR, может не только разрабатывать формально-лингвистические модели естественных языков (d-теории), но и легко проверять эти модели в автоматизированном режиме на их соответствие эмпирическим данным.
Такая возможность обусловлена тем, что вывод следствий из заложенных в d-теорию обобщений производится автоматически. Например, описав в среде DATR (в форме запроса к DATR-процессору) грамматические атрибуты некоторого лексического объекта, или класса таких объектов, при наличии соответствующей d-теории, можно получить список всех удовлетворяющих этому запросу лексем.
В стандартной терминологии архитектуры экспертных систем и баз знаний, на DATR можно смотреть как на среду представления лингвистических знаний, подобную семантической сети.
Ссылки:
1. веб-ресурс по DATR: http://www.ccl.kuleuven.be/LKR/html/datr.html
Тоже самое в pdf: http://www.aclweb.org/anthology-new/J/J96/J96-2002.pdf
2.http://www.nltg.brighton.ac.uk/nltg/downloads/datr/index.html
3. DATR Theories and DATR Models: http://www.aclweb.org/anthology-new/P/P95/P95-1008.pdf
4. Описание применения DATR на практике: http://fora.adygnet.ru/files/6/9.pdf
5. Реализация языка DATR, написанная на Python: http://pydatr.sourceforge.net/
6. http://portal.acm.org/results.cfm?coll=GUIDE&dl=GUIDE&CFID=110182256&CFTOKEN=64176893
Изучение DATR
Визуализация с помощью сводных таблиц
Ярлыки: Визуализация, Сводные таблицыСводная таблица - это такая вспомогательная таблица, которая представляет собой сводку больших объемов данных.
Пользователь создает и изменяет струкуру сводной таблицы посредством захвата и перетаскивания графических элементов, изображающих поля сводной таблицы. Такая визуальная ротация графических элементов-полей стала основой для английского названия сводной таблицы - pivot table (глагол pivot в переводе означает вертеть, вращать, крутить).
Итак, для построения сводной таблицы я выбрала среду MS Excel 2010 и составила небольшую табличку со столбцами ГЛАС, БУКВА, КОД, ЗВУКИ, КОЛ-ВО:
Чтобы построить сводную таблицу надо выбрать пункт меню "Вставка->Сводная таблица" (в более ранних версиях "Данные->Сводная таблица"):
Далее выбираю какие столбцы у меня будут строками, какие столбцами, по какому столбцу считать сумму.
Чтобы итоговая таблицы стала более компактной, включаю фильтр по значениям (по столбцу БУКВА).
В итоге получаем очень интересную таблицу:
Потрясающий результат! сразу видно в каком гласе (столбцы) какие буквы (знамена) встретились, какими звуками кодируются знамена. Например, знамя под буквой Ы кодируется звуками B3,И1,П4,Р6, которым соответствуют коды 14, 8, 3, 18.
Общий итог считается как по строчкам, так и по столбцам :)
Ссылки:
http://chevalry.livejournal.com/142532.html
http://excel.szags.ru/All_sourse/Svodnie_tabl.htm
http://myooo.ru/content/view/95/58/ - построение сводных таблиц в OPENOFFICE
Обзор программ SemioStatistik и Semantic_Statistik
Автор:
Ирина Даньшина
на
12:08
.
0
коммент.
Исходный материал
Исследование проводится на материале Круга церковного древнего знаменного пения в шести частях (ОЛДП, под редакцией Д.В. Разумовского) — первого и единственного фундаментального собрания певческих книг русской церкви, полностью нотированных знаменами. В шести томах (частях) Круга содержится свыше тысячи пятисот песнопений. Первый том включает песнопения Октоиха. Второй и третий тома содержат обиходные песнопения, а в четвертом, пятом и шестом томе — песнопения певческих книг Праздники, Трезвон и Ирмологий.
Знаменный распев-это основной вид, старейшая и исконная форма русского богослужебного пения. Для записи песнопений используются специальные знаки безлинейной нотации-знамена, которые также иногда называют крюками.
Как вы видите, эта запись отличается от привычной нам 5-ти линейной формы способом записи мелодии, в которой нет четкого соответствия между знаменем и высотой и длительностью звука. Поэтому, перевод из крюковой нотации в линейную не является тривиальной задачей.
Для визуализации песнопений были разработаны специальные шрифты, которые использовались для ввода песнопений в таблицы Word.
Этапы анализа песнопений
Анализ песнопений включает 3 этапа:
1. Перевод исходного материала в специальный формат, который позволяет проводить различные исследования с помощью вычислительной техники.
2. Статистический анализ. Получение частотных таблиц по знаменам, комбинациям знамен.
3. Семантический анализ. На этом этапе исследуются связи между знаменами, гласы попарно сравниваются, выявляются «общие», а также уникальные знамена.
Перевод песнопения в новый формат
Каждая ячейка таблицы разбирается на элементы следующей структуры:
1) N: порядковый номер
2) S: символ
3) T: текст
4) St: стиль начертания ( жирный/курсив/обычный)
5) VPom: высотная помета
6) DPom: помета длительности
Программа SemioStatistik
Семантический анализ
Исследователи, которые изучают знаменные песнопения, сталкиваются с проблемой проведения ряда работ, связанных с тем или иным подсчетом частоты встречаемости различных символов (комбинаций символов), выявлением закономерностей и особенностей анализируемого текста. Такой тип работ требует постоянного внимания и занимает большое количество времени. Если данный этап автоматизировать, то исследователи смогут получать более точные результаты за меньшее количество времени и меньшие затраты человеческого труда.
Знаменная нотация является самостоятельным языком. Каждому знамени может соответствовать несколько нот, одно знамя может заменяться группой знамен, а значение знамени зависит от его контекста. Существуют специальные азбуки и учебники, по которым можно научиться делать примерный перевод песнопений в ноты, но данный процесс затрудняет наличие в каждом гласе так называемых ‘попевкок’- комбинаций знамен, в которых каждое знамя меняет свое значение, описанное в азбуке. Сложность заключается в том, что точный список этих ‘попевок’ неизвестен. Программа Semantic_Statistik автоматизирует процесс анализа песнопений и позволяет выявлять закономерности такого рода.
Представление знамен в программе
Каждому знамени сопоставляется определенный код (1, 2, …). Это делается исходя их следующих соображений:
1) Для корректного отображения знамен необходим специальный шрифт, иначе пользователь будет видеть латинские и русские буквы и невозможно будет отличить ‘А’ от ‘A’, ‘с’ от ‘c’ и т.д.
2) В том случае, если шрифт установлен, неподготовленному пользователю трудно ориентироваться в графических изображениях.
3) Более простое программное решение.
Возможность просматривать результаты работы программы с помощью шрифтов также реализована.
Построение таблицы 'Формула гласа’
Под ‘формулой гласа’ понимается закономерность следования знамен друг за другом. На рисунке 1 представлен фрагмент, построенный программой по первому гласу Октоиха (первая часть [Круг,1884-1885]).
В этой таблице показано какое знамя с каким сочетается. Например, для столбца, которому соответствует знамя с кодом 76, цифра 66 в третьей строке обозначает, что после этого знамени 66 раз встречается это же знамя, а знамя с кодом 77 (четвертая строка) встречается 5 раз. Нажав на ячейку с цифрой, можно посмотреть в каком контексте сочетаются эти знамена (они выделены красным цветом).
В верхней части формы ‘Формула гласа’ выводится информация о количестве различных знамен и количестве встретившихся сочетаний, список можно посмотреть нажав кнопку «конкордансы». Слева выводится конкорданс (сочетание знамен по 2), а справа ᅳ его частота.
Таблицы можно сохранить в формате *.xls. В этом случае знамена будут представлены в своем исходном виде.
Разметка песнопения
Пользователь может задать определенные правила разметки гласа. Можно создавать группы знамен, которые будут выделяться в тексте другим цветом шрифта или фона.
Например, ввести список знамен с которых обычно начинаются, заканчиваются ‘попевки’, список уже известных ‘попевок’, какие-либо характерные знамена или слова.
Сравнение двух гласов
На этой форме показываются какие общие сочетания знамен у выбранных гласов, какие общие знамена, а какие характерны только для этого гласа.
Визуализация с помощью семантических сетей
Ярлыки: Визуализация, Семантические сетиСемантические сети - графические схемы с узлами, соединенными дугами. Узлы (вершины сети) представляют некоторые понятия (объекты, события, явления), а дуги – отношения между ними.
Формально сеть можно задать в следующем виде: H=(I,C,G), где:
I – множество информационных единиц;
C – множество типов связей между информационными единицами;
G – отображение, задающее конкретные отношения из имеющихся типов C между элементами I.
Семантическая сеть как модель наиболее часто используется для представления декларативных знаний. С помощью этой модели реализуются такие свойства системы знаний, как интерпретируемость и связность, в том числе по отношениям IS-A и PART-OF. За счет этих свойств семантическая сеть позволяет снизить объем хранимых данных, обеспечивает вывод умозаключений по ассоциативным связям.
Как правило, различают экстенсиональные и интенсиональные семантические сети. Экстенсиональная семантическая сеть описывает конкретные отношения данной ситуации. Интенсиональная – имена классов объектов, а не индивидуальные имена объектов. Связи в интенсиональной сети отражают те отношения, которые всегда присущи объектам данного класса.
Характерной особенностью некоторых семантических моделей является интегрированное описание процедурной семантики и статической семантики – допустимые операции над объектами определяются совместно с определением структур данных.
Наряду с достоинствами семантические модели обладают некоторыми недостатками. В семантических сетях нет специальных средств, позволяющих определить временные зависимости, поэтому временные значения и события трактуются как обычные понятия. Произвольная структура и различные типы вершин и связей усложняют процедуру обработки информации. Стремление устранить эти недостатки послужило причиной появления особых типов семантических сетей: синтагматические цепи, сценарии, фреймы и т.п.
Что нужно сделать:
1. Выделить объекты предметной области
2. Определить отношения между объектами
Наиболее широко используемые семантические отношения имеют сходство со списком категорий, например, с 10-ю знаменитыми аристотелевыми категориями: cодержание, количество, качество, отношение, где (место), когда (время), находящийся в положении (позиция), имеющий (состояние), делающий (действие), подвергнутый.
3. Провести исследование по выявлению программ, с помощью которых можно построить семантические сети, выделить их достоинства и недостатки.
4. Решить, есть ли необходимость разработать собственную программу визуализации.
Ссылки:
http://www.aiportal.ru/articles/knowledge-models/semantic-network.html
http://book.itep.ru/10/sem_net.htm
http://www.wikiznanie.ru/ru-wz/index.php/Семантическая_сеть
http://www.lnup.ru/development/semanticnet/
Формально сеть можно задать в следующем виде: H=(I,C,G), где:
I – множество информационных единиц;
C – множество типов связей между информационными единицами;
G – отображение, задающее конкретные отношения из имеющихся типов C между элементами I.
Семантическая сеть как модель наиболее часто используется для представления декларативных знаний. С помощью этой модели реализуются такие свойства системы знаний, как интерпретируемость и связность, в том числе по отношениям IS-A и PART-OF. За счет этих свойств семантическая сеть позволяет снизить объем хранимых данных, обеспечивает вывод умозаключений по ассоциативным связям.
Как правило, различают экстенсиональные и интенсиональные семантические сети. Экстенсиональная семантическая сеть описывает конкретные отношения данной ситуации. Интенсиональная – имена классов объектов, а не индивидуальные имена объектов. Связи в интенсиональной сети отражают те отношения, которые всегда присущи объектам данного класса.
Характерной особенностью некоторых семантических моделей является интегрированное описание процедурной семантики и статической семантики – допустимые операции над объектами определяются совместно с определением структур данных.
Наряду с достоинствами семантические модели обладают некоторыми недостатками. В семантических сетях нет специальных средств, позволяющих определить временные зависимости, поэтому временные значения и события трактуются как обычные понятия. Произвольная структура и различные типы вершин и связей усложняют процедуру обработки информации. Стремление устранить эти недостатки послужило причиной появления особых типов семантических сетей: синтагматические цепи, сценарии, фреймы и т.п.
Что нужно сделать:
1. Выделить объекты предметной области
2. Определить отношения между объектами
Наиболее широко используемые семантические отношения имеют сходство со списком категорий, например, с 10-ю знаменитыми аристотелевыми категориями: cодержание, количество, качество, отношение, где (место), когда (время), находящийся в положении (позиция), имеющий (состояние), делающий (действие), подвергнутый.
3. Провести исследование по выявлению программ, с помощью которых можно построить семантические сети, выделить их достоинства и недостатки.
4. Решить, есть ли необходимость разработать собственную программу визуализации.
Ссылки:
http://www.aiportal.ru/articles/knowledge-models/semantic-network.html
http://book.itep.ru/10/sem_net.htm
http://www.wikiznanie.ru/ru-wz/index.php/Семантическая_сеть
http://www.lnup.ru/development/semanticnet/
Как можно визуализировать семантическую информацию?
Ярлыки: Визуализация1. Семантические сети
2. Сводные таблицы
3. Нотация DATR (язык для представления лексических знаний - ( http://www.ccl.kuleuven.be/LKR/html/datr.html )
4. RDF - нотация для представления отношений между объектами ( http://ru.wikipedia.org/wiki/Resource_Description_Framework )
5. Темпоральная логика (?)
6. Что-то еще?
Интересные ссылки:
http://groups.csail.mit.edu/medg/ftp/psz/k-rep.html
http://ittc.ksu.ru/vol000/002/networks.htm
Методы визуализации полученной информации. Необходимость исследования.
Автор:
Ирина Даньшина
на
12:11
.
0
коммент.
Сейчас результаты работы программы представляются в виде таблиц: какое знамя за каким следует, с какой частотой, в каком контексте. Это удобно если надо посмотреть информацию по нескольким отдельным знаменам, но просмотр общей "картины" по-прежнему затруднен. Необходимо провести исследование чтобы выявить наиболее эффективные способы наглядного представления информации.
Тематика блога
Ярлыки: ТематикаДанный блог отражает работу по проекту «Компьютерная семиография» в области семантического анализа. Цель проекта — расшифровка знаменных песнопений XII-XV века с использованием современных методов обработки информации. Эти методы затрагивают в основном этапы ввода информации и ее анализа.
Исследователи часто сталкиваются с проблемой проведения ряда работ, связанных с тем или иным подсчетом частоты встречаемости различных символов (комбинаций символов), выявлением закономерностей и особенностей анализируемого текста. Такой тип работ требует постоянного внимания и занимает большое количество времени. Если данный этап автоматизировать, то исследователи смогут получать более точные результаты за меньшее количество времени и меньшие затраты человеческого труда.
Знаменная нотация является самостоятельным языком. Каждому знамени может соответствовать несколько нот, одно знамя может заменяться группой знамен, а значение знамени зависит от его контекста. Существуют специальные азбуки и учебники, по которым можно научиться делать примерный перевод песнопений в ноты, но данный процесс затрудняет наличие в каждом гласе так называемых ‘попевкок’- комбинаций знамен, в которых каждое знамя меняет свое значение, описанное в азбуке. Сложность заключается в том, что точный список этих ‘попевок’ неизвестен. Мною разрабатывается программа Semantic_Statistik, которая автоматизирует процесс анализа песнопений и позволяет выявлять закономерности такого рода. В данном блоге будут представляться возможности программы.